关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

Llama 超大杯有什么惊喜?Meta会一直开源吗?为什么我相信元宇宙?扎克伯格的新采访回应了一切

发布时间:2024-04-25 09:04:03

声明:本文来自微信公众号 机器之心(ID:作者:机权站长之家转载发布almosthuman2014)。

昨天凌晨,Meta 突然官宣了 Llama3,再次提高了开源模型的实力。

Llama3有三个版本 ——8B、70B 和405B。其中,8B 和70B 版本已经开源,405B 版本仍在训练中。根据现有的评估数据,405B 版本的性能已经接近 GPT-4(见《开源大模型》 Llama3王者归来!最大底牌参数4000亿,性能直接逼近 GPT-4)。这可能会促进 OpenAI 尽快发布下一代模型,以保持其最强 AI 模型的位置。

那么,这个还没有出现。 Llama3405BB 大模型会带来什么惊喜?Meta 会继续开源吗?Llama4和之后的模型会向哪些方向迭代?以前 Meta 相信元宇宙的动力是什么?在最近的一次采访中,Meta CEO 扎克伯格回应了这些问题。

视频地址:https://www.youtube.com/watch?v=bc6uFV9CJGg&t=17s

他提到Llama3405B 预计将在年底发布密集模型。此外,他们还计划在年底拥有大约35万元 GPU,目前已建成22000元 GPU 和24000块 GPU 两个单独的集群已经建成。在谈到开源问题时,他类比说苹果和谷歌在现有的应用生态系统中「守门人」他对开发者可以构建的应用类型有很大的控制权,他不想让 AI 世界也变成了这样,所以他对开源持积极态度。他对一个开放的人表示了开放 AI 在这个系统中,开发者不会受到少数控制闭源模型的大公司的限制。

以下是机器之心整理的访谈内容,部分内容被删除。

Llama-3超大杯什么时候发布?

Dwarkesh Patel:我们来谈谈刚刚发布的 Llama-3和 Meta AI 吧。

Mark Zuckerberg:我认为大多数人最关心的是 Meta AI 新模型,即 Llama 模型升级版:Llama-3。我们不仅会开源开发社区,还会让它成为 Meta AI 的助力。Meta AI 有很多值得注意的地方,但我认为最重要的是,它是目前人们可以使用的最智能、最自由的 AI。我们将与谷歌和谐 Bing 整合以获取实时知识。

Meta AI 它将集成到我们的许多应用程序中,包括 Facebook 和 Messenger—— 您可以在他们的搜索框中提出任何问题。我们添加了许多创意功能,例如动画功能,可以将任何图片变成动画。

一个令人震惊的更新是,它现在可以以非常快的速度生成高质量的图像,它可以随着用户输入而实时更新生成结果。

在接下来的几周或几个月里,我们将在一些国家发布这些应用程序,但它们不会完全传播。我认为这将是一个非常重要的事件 Meta AI 向前迈出一大步。

深入到 Meta AI 在内部,技术上最引人注目的当然是 Llama-3.我们训练了三个版本:8B 和70B 参数模型,还有一个模型405B 参数的密集模型(还在训练中)。8B 和70B 模型的性能非常令人兴奋,它们都是同一规模的领导者。

还有后续发布的路线图,包括多模态、更强大的多语言支持、更大的上下文窗口。我们希望在今年年底的某个时候发布405B 版本。在目前的训练阶段,它的 MMLU 得分已经达到了85分左右。我们预计训练结束后,它将在许多基准上领先。刚刚发布的70B 模型也很出色,MMLU 为82,数学和推理能力都领先。

Dwarkesh Patel:着实不凡。

Mark Zuckerberg:8B 基本上和我们之前发布的版本一样。 Llama-2的最大同样强大的版本,也就是说, Llama-3的最小版本足以与之媲美 Llama-2的最大版本。

买那么多 GPU 未卜先知是未卜先知?

Dwarkesh Patel:在深入这些模型之前,我想谈谈过去。大约在2022年,你开始购买 H100。当时,你的股价很低,人们想知道你为什么要这样花钱。人们对元宇宙并不乐观。那时候你怎么知道要买? H100呢?

Mark Zuckerberg:那是因为我们当时正在研究 Reels(短视频应用,Tiktok 竞品)。我们总是希望有足够的能力来构建不存在的东西。当时我们正在研究 Reels,我们需要更多 GPU 训练模型。此外,我们希望尽快赶上基础设施 TikTok。当时我们想:「唉,我们必须确保我们不再落后了。然后订购足够的训练 Reels 的 GPU 再加一倍。」

Dwarkesh Patel:当时你知道这将用于训练 AI 吗?

Mark Zuckerberg:我们知道这将与大型训练模型有关。当时我认为这可能与内容有关。 —— 那时候,我非常渴望 Reels 与其他内容一起开发推荐算法。现在这已经成为 Instagram 和 Facebook 一大卖点:向人们展示他们可能感兴趣的东西,即使他们不注意。

事后看来,这是一个非常明智的决定。这些都是后见之明。 ——「哦,我当时有多领先。」事实上,我们当时所做的大多数决定最终都有很好的结果,因为我们以前搞砸了,不想再犯同样的错误了。

何时决定 All in AGI?

Dwarkesh Patel:Facebook AI 研究所已经成立很久了。现在它似乎已经成为你们公司的核心。你什么时候开始考虑创造? AGI 作为自己的使命和关键优先事项

Mark Zuckerberg:真的很久了。FAIR 它成立于大约十年前。我们的想法是,在创造通用智能的道路上,我们将获得许多不同的创新,可以改进各个方面。因此,我们不把它看作是一种产品,它更像是一个研究团队。在过去的十年里,它创造了很多东西来改进我们所有的产品。它也促进了它 AI 发展领域。

在过去的几年里 ChatGPT 随着扩散模型的出现,这一领域发生了重大变化,许多事情会改变人们与应用程序的互动模式。当时,我们成立了另一个团队:Gen AI 团队。其目标是将这些创新引入我们的产品,并构建先进的基础模型,以支持所有这些不同的产品。

一开始,我们想做的一切都与社会有关,比如帮助人们与创作者沟通,帮助人们与企业互动,帮助企业销售产品或提供客户服务。还有一些基本的助理功能,可以用于我们的应用、智能眼镜和 VR 设备。所以一开始,我们并不完全知道我们需要完整 AGI 支持所有这些用例。但经过多年的研究和实践,这方面变得清晰起来。例如,在我们的发展中 Llama-2点钟,我们没有把编程作为优先事项,因为人们不会使用它 WhatsApp 向 Meta AI 提出很多编程问题。

Dwarkesh Patel:现在他们会问这个吗?

Mark Zuckerberg:我不知道。我不确定人们是否使用它。 WhatsApp 或 Facebook 或 Instagram 作为 UI 询问与编程相关的问题,也许他们会使用我们刚刚推出的网站 meta.ai。然而,过去18个月的发展表明,编程对许多领域非常重要,而不仅仅是编程。尽管人们提出的问题与编程无关,但是训练模型学习编程仍然很有用 —— 这有助于模型给出更严格的答案,使模型能够在不同类型的领域进行推理。Llama-就是这样,编程能力是我们关注的焦点之一,因为它可以帮助模型的能力得到全面的提高。

另一个关键点是推理。当用户与企业或企业沟通时,他们通常涉及多步互动,而不是一个问题和一个答案。大多数时候,客户只知道自己的需求,不知道自己想要什么产品或服务。此时,仅仅回答字面问题是不够的,还需要推理。

Llama-能取代程序员吗?

Dwarkesh Patel:所以 Llama-所有这些用例都能解决吗?你认为这个版本足以替代程序员吗?

Mark Zuckerberg:我只是觉得这些能力会随着时间的推移而提高。

Dwarkesh Patel:但最终可以解决,比如 Llama-10?

Mark Zuckerberg:我认为这个问题并不简单。我不确定这些模型是会取代更多的人,还是会帮助更多的人。

Dwarkesh Patel:Llama-10出生后,程序员的生产力能提高10倍吗?

Mark Zuckerberg:我希望会有更多。我相信人们的智力没有单一的阈值,因为人们有不同的技能。我认为在未来的某个时候,AI 大多数事情都会超越人类。但是我觉得这个过程是渐进的,我觉得是渐进的 AGI 它不是一个单一的存在,而是不同功能的集合。目前,我们关注的一个关键功能是多模态,从照片、图像和文本到视频。而且我们也很关注元宇宙,所以3D 模型也很重要。我非常关注的另一个模式是情感理解(emotional understanding)—— 我还没有看到业内很多人关注这方面。大多数人的大脑都是专门用来理解别人的表情和情绪的。我认为这是一个单独完整的模式。你可能会说这是视频或图像,但显然这是一个非常特殊的视频或图像。

因此,模型不仅需要有理解和记忆的能力,还需要掌握许多其他不同的能力。我认为,在未来,当我们解决复杂的问题时,我们将不再关注查询窗口,而是通过输入上下文来处理它们。人们将拥有更个性化的记忆数据和不同的定制模型。它们有不同的能力,大大小小。我们都非常关注大大小小的模型。Meta AI 这种模型在大型模型中运行服务器但我们也希望有一个模型可以在智能眼镜和其他小型设备上运行。因此,我们也需要一个非常有效的模型。

什么样的产业级用例会催生大模型?

Dwarkesh Patel:你认为模型推理有哪些100亿美元甚至100亿美元的市场?它的工业用例是什么?模拟或元宇宙?

Mark Zuckerberg:我们猜这将改变所有的产品。我认为会有一个。 Meta AI 通用助理产品。该产品不再是一个只能问答的聊天机器人,而是一个系统的模型,可以完成更复杂的任务。这需要大量的推理和计算。

另一个重要的方向是与包括企业业务和创意工作在内的其他智能或人类互动。我的想法是,未来不仅仅是单一的 AI。每个企业都希望有一个代表其利益的企业 AI。

创意工作也是一个关键点。我们的平台上有大约2亿名创作者。当他们与自己的社区互动时,他们通常有模式可循,但他们的日常时间有限。如果我们能创造出创造者可以拥有的东西 AI,让他们以自己的方式训练自己与社区的互动,必然是一个很棒的应用场景。这样 AI 它将赢得大量的互动参与。

这只是消费者的例子,我和妻子的基金会 Chan Zuckerberg Initiative 在科学方面做了许多工作,包括许多工作 AI 这些相关工作将促进科学和医疗领域的发展。我相信这些最终会影响产品和经济的各个方面。

Llama-3将带来哪些改进?

Dwarkesh Patel:你提到模型的进步是渐进的,这意味着模型变得更大吗?还是使用更好的数据来训练相同大小的模型来使它更强大?

Mark Zuckerberg:我认为我们不知道这个问题的答案。我认为基于发展模式的发展模式 Llama 这种模型开发其他应用,即对用例进行微调,如让 Meta AI 可以使用谷歌或者 Bing 获取实时知识的工具。基础 Llama 模型没有这种能力。Llama-有一些,但这是人工设计开发的。Llama-3开始有一些类似智能体的能力。对于 Llama-4.我们的一些目标是让模型本身有更多的能力。

每一次进步都会有新的可能性,解锁新的用例。

Dwarkesh Patel:你说「让模型本身有更多的能力」,您是否指的是您想要完成的模型的训练模型?

Mark Zuckerberg:Llama-2只能使用非常特定的工具,而且 Llama-可以使用很多工具。我们可以使用谷歌进行搜索,而不需要人工编程。它本身就能做到。类似的功能包括编程和操作代码。既然模型可以有这样的能力,我们就可以一窥未来。我们不必等待发展 Llama-要建立这些能力,我们现在就可以探索了。为了临时过渡,我们可以手动编写一些工具,使产品更好地使用。这有助于展示下一个版本模型的开发方向。

Dwarkesh Patel:开源社区对 Llama-你对微调最感兴趣的是什么?也许不是对你最有用的那个。

Mark Zuckerberg:我认为我们可能会开始构建有价值的东西。我想你会得到简化版本和更小版本。我认为8B 对许多用例来说,参数还不够小。随着时间的推移,我真的很想得到一个1-2B 参数模型,甚至是500M 参数模型,然后看看你能做什么。

如果使用8B 我们几乎可以与参数相匹配最大的 Llama-如果你使用10亿个参数,你应该能够做一些有趣而更快的事情。我们也在考虑优化模型,但现在 GPU 已被用来训练405BB 模型了。

LLama-370B 模型的潜力还有待探索

Dwarkesh Patel:关于 GPU,我记得你说年底会有35万元。

Mark Zuckerberg:我们建造了两个集群, 每个集群大约有22000或24000个 GPU。由于我们服务的社区规模较大,我们需要的推理计算量和培训计算量的比例可能远高于其他公司。

Dwarkesh Patel:在你之前和我分享的材料中,我注意到你用更多的数据来训练。你能具体谈谈吗?

Mark Zuckerberg:关于70B 模型,我们发现了一件有趣的事情,我们训练 token 达到15万亿,但模型仍在训练的最后阶段学习。如果我们给它更多 token,模型可能会变得更好。

但是经营一家公司,你需要做出选择。我问自己是否想调用它。 GPU 进一步训练70B 模型?或者准备测试 Llama-一些前期假设4我认为70B需要做出决定 模型的版本取得了良好的平衡。未来还会有其他版本,比如70B 未来将推出多模式版本。但最迷人的是,这些架构可以容纳如此多的数据。

Dwarkesh Patel:这真的很有趣。这对未来的模型意味着什么?你提到了 Llama-3的8B 比 Llama-2的70B 更好。

Mark Zuckerberg:不,不,它几乎一样好。我不想夸大太多。它的数量级差不多。

除了能源瓶颈,还有结构瓶颈

Dwarkesh Patel:这是否意味着 Llama-470B 会和 Llama-3405B 同样好吗?未来会是什么样子?

Mark Zuckerberg:这真是个好问题。我想没有人会给出答案。世界上最棘手的事情之一是指数曲线能持续多久?我认为我们很可能会继续下去。我认为投资100亿美元甚至1000亿美元建设基础设施是值得的。这样,你就会得到一些真正令人惊讶的东西,从而创造出令人惊讶的产品。一般来说,从历史的角度来看,当你遇到瓶颈时,解决它需要很多时间。但现在,也许这些瓶颈很快就会被克服。

Dwarkesh Patel:如果没有这些瓶颈,世界会是什么样子?假设进展以这种速度继续下去。

Mark Zuckerberg:无论如何,都会遇到不同的瓶颈。在过去的几年里,我想 GPU 生产是个问题。即使你有钱支付 GPU 由于供应限制,公司可能无法获得他们想要的数量。如今,我认为这种情况正在减少。因此,你会看到许多公司现在正在考虑投资大量资金来建造这些设施。我认为这种情况会持续一段时间。还有一个资本问题,在什么时候,投资更多的资本将不再具有成本效益。事实上,我认为在我们达到这一点之前,你会遇到能源的限制。据我所知,还没有人建立过一千兆瓦的单一训练集群。此外,政府将严格监督获得能源许可证。显然,如果你在创办一家小公司,你可能会觉得这种监管很少。我们与不同的政府和监管机构打交道,我们有许多规则需要遵循,以确保我们在世界各地做得很好。但我认为能源无疑是一个巨大的限制。

Dwarkesh Patel:没有什么,也许是人工智能相关项目可能不是,即使像 Meta 这样的公司没有资源吗?如果这项任务是R&D预算或资本支出预算的10倍,你还会实施吗?

Mark Zuckerberg:我认为能源问题就是其中之一。如果我们有足够的能源,我们可能会建立比现在更大的集群。

Dwarkesh Patel:如果你有1万亿美元,这基本上是资本瓶颈的极限...

Mark Zuckerberg:我认为是时候考虑这个问题了。这取决于指数曲线会走多远。目前,许多数据中心的规模约为50兆瓦或100兆瓦,而大型数据中心可能达到150兆瓦。如果整个数据中心被用于训练和建立最大我认为很多公司都在这样做。但是当你开始建造像300兆瓦、500兆瓦或1吉瓦这样的数据中心时,没有人建造过1吉瓦的数据中心。我认为这迟早会发生,但明年不会发生。有些事情需要几年的时间才能完成。从另一个角度来看,我认为1吉瓦的规模相当于核电厂的能源供应,仅用于培训模型。

Dwarkesh Patel:亚马逊做过这个吗?他们有950兆瓦...

Mark Zuckerberg:我不确定他们做了什么。你得问他们。

Dwarkesh Patel:但是这个规模的数据中心不一定要建在同一个地方,对吧?如果分布式训练有效,也可以分布式进行。

Mark Zuckerberg:嗯,我认为这是一个大问题,数据中心将如何运行。

Dwarkesh Patel:Llama-三、甚至可能 Llama-在以后的版本中,你能遇到这种情况吗?换句话说,如果你发布了这个模型,如果有人拥有大量的计算资源,他们可以在你发布的模型的基础上使这些模型更加智能化。

Mark Zuckerberg:我认为这种可能性是存在的,但我也认为模型架构有根本的限制。用 Llama-70B架构训练 模型可以变得更好,可以不断改进。正如我之前所说,如果我们继续为它提供更多的数据,或者再次通过它 token 优化会变得更好,世界各地很多不同的公司基本都采用了 Llama-270B 模型架构,然后构建一个新的模型。但当你对像时,仍然存在这样的情况 Llama-370B 或 Llama-3405B 当这种模型得到改进时,人们可以在此基础上构建的东西不能无限进步。在取得下一个重要进展之前,也许只能在现有的基础上进行优化和改进。

AI 这是历史上最重要的技术吗?

Dwarkesh Patel:未来几十年人工智能会发生什么?它会让你感觉像另一种技术,比如虚拟宇宙或社交技术,还是人类历史过程中根本不同的东西?

Mark Zuckerberg:我认为将人工智能描述为一种非常基本的技术是非常合适的。它更像是计算机的发明,它将产生一个新的应用程序。但我认为这是一个低水平的创新,我的感觉是,这更像是人们从没有计算机到拥有计算机的过程。

然而,我们很难预测 AI 怎样发展?就宇宙尺度而言,AI 变化很快就会发生,需要几十年的时间。有些人担心 AI 它确实会在一夜之间从一点智慧变成一点智慧,但我认为所有这些物理限制都使这种情况不太可能发生。但我们必须承认,AI 它确实会改变我们的工作方式,让人们做他们想做的事。

Dwarkesh Patel:也许不是一夜之间,但你认为我们能用这种方式思考宇宙规模中的这些里程碑吗:人类进化,然后人工智能出现,然后他们进入银河系。根据这个推理,这个过程可能需要几十年或一个世纪,AI 会是历史发展的重要组成部分吗?我指的是,计算机甚至火在人类发展史上至关重要,但人工智能能与这些发明相比吗?

Mark Zuckerberg:我认为这很难回答。在人类历史上,人类的某些方面确实是独一无二是的,然后意识到事实并非如此,但人类仍然非常特殊。我们认为地球是宇宙的中心,但事实并非如此,但人类仍然非常伟大和独特,对吧?

我认为人们的另一个偏见是,智力在某种程度上与生活有着根本的联系,但事实并非如此。我们还没有对意识或生活有明确的定义来充分理解这个问题。许多科幻小说都是关于创造智力的,它们开始承担所有这些人的行为和类似的事情。然而,目前的趋势似乎正朝着一个方向发展,即智力可以与意识、主动性和类似的东西完全分离,这使它成为一个超级有价值的工具。

虽然很难准确预测技术的发展方向,但开发人员不应该对开发计划或未来做出太多的承诺。当我们发布新版本时,我们都需要重新评估模型。虽然我们倾向于支持开源,但并不一定是所有的内容。开源有利于社区和自身,因为我们可以从创新中受益。然而,如果技术的性质发生了定性的变化和表现作为不负责任的行为,我们可能会考虑不开源。总的来说,技术发展充满了不确定性。

开源 vs.闭源,哪个更危险?

Dwarkesh Patel:将来你们正在训练 Llama-5或 Llama-4点,有可能发生质变吗?如果发生了,你想开源吗?

Mark Zuckerberg:回答这个问题有点困难,因为任何产品都可能有负面行为,只要缓解。我们也在努力减少模型的负面影响,以前也在 Llama-花了很多时间来确保它不会帮助人们实施暴力和其他不良行为。但这并不意味着它已经成为一个智能主体,这只意味着它有很多关于世界的知识,可以回答一系列我们认为不应该回答的问题。因此,我认为问题在于如何识别和缓解其潜在的不良行为,而不是行为本身。

我认为事物的质量有很多方面,很难提前详细列出。看看我们在社交媒体上面临的问题,我们总结了18或19种人类有害行为,然后建立了它们 AI 系统可以识别这些行为,并尽可能确保这些行为不会发生在我们的网络上。随着时间的推移,我认为我们会对问题进行更详细的分类。

Dwarkesh Patel:我认为广泛的部署 AI 系统非常重要。如果将来有的话。 AI 该系统没有得到广泛的部署,导致人们无法访问,我感到失望。与此同时,我想更好地理解如何减少模型的潜在问题。

Mark Zuckerberg:这是个复杂的问题。我认为大多数人会使用现成的模型,所以不会有不良行为,而有恶意行为的人会试图使用不良行为。所以这是一个值得深思的问题。另一方面,在哲学上,我支持开源的一个原因是,我认为未来 AI 过度集中会像被广泛使用不当一样危险。一个组织比所有其他组织都有更强大的权力 AI 也可能很糟糕。正如我们所看到的,不同的事物都有安全漏洞。

我们如何处理这个问题?其中一个重要部分是开源软件。软件的升级迭代不再局限于一家公司,可以广泛部署在银行和医院的许多不同系统中。随着软件的改进,世界各地的开源软件将按照新的基准进行升级。

随着时间的推移,人工智能广泛部署的世界将逐渐变得更加强大,所有不同的系统都将在一定程度上得到控制。对我来说,这个比较 AI 更集中、更安全。然而,最让我担心的是,一个不可靠的主体拥有它超级强大的人工智能系统,这可能是更大的风险。

Dwarkesh Patel:当你在训练的时候,这种情况会发生吗? Llama-4点,它可能会因为某种原因对你撒谎,因为它认为你没有注意到这个问题,然后你意识到发生了什么?尽管如此 Llama-这种级别的系统不太可能发生,但你有没有想过,如果这种欺骗行为以成千上万的副本不安全地传播。

Mark Zuckerberg:现在,我们观察到了许多幻觉现象,人们如何区分幻觉和欺骗将是一件有趣的事情。说到欺骗,我最担心的形式是人们使用它来生成错误的信息,然后通过互联网或其他人传播信息。打击这些有害内容的方法是建立一个比竞争对手系统更智能的人工智能系统。

如果你仔细观察人们通过社交网络造成的伤害类型,你会发现有些伤害不是对抗性的。例如,没有仇恨言论超级对抗性,因为人们并没有因为网络言论而变得更加种族歧视。在这些问题上,人工智能通常比人类更成熟。事实上,无论是试图煽动暴力还是其他任何事情,我们都有问题,人们都会做坏事。但 AI 也会有很多误报,比如审查不该审查的东西,会让很多人感到恼火,这是可以理解的。因此,我认为随着时间的推移,人工智能在这方面会变得越来越准确,情况也会得到改善。

无论是未来 Llama-4还是 Llama-6.我们都需要仔细观察模型行为,每个人都参与其中。我们开源的原因之一是,许多其他人也在研究这一领域。因此,我们想看看别人观察到了什么,我们观察到了什么,我们可以减少什么,然后我们将评估它是否可以开源。在可预见的未来,我对此持乐观态度。但在短期内,我不想忽视我们今天正在努力解决的实际问题。尽管它们不是生存问题,但它们是我们必须花时间解决的大部分问题。

Dwarkesh Patel:关于合成数据,我发现了一件非常有趣的事情。由于合成数据的重复使用将达到极限,因此当前模型使用合成数据可能会出现渐近情况。然而,如果模型变得更加智能,并使用你在论文或即将到来的博客文章中提到的技术,你可以找到最正确的答案。为什么你认为这不会导致一个循环,模型变得更聪明,产生更好的输出?当然,这不是一夜之间的事,但随着训练时间的延长,可能会出现更智能的模型。

Mark Zuckerberg:我认为无论模型架构是什么,它都可以在参数范围内实现。只是,对于今天的8B 我认为参数模型不会像最先数千亿参数模型也一样好。

Dwarkesh Patel:但这些都是开源的,对吧?

Mark Zuckerberg:嗯,目前看来是的。但前提是我们必须解决上述问题。我认为你可以用软件做很多事情,但在某种程度上,你会受到芯片、物理和能源的限制。

Dwarkesh Patel:我认为保留选择是有意义的,因为我们不知道的事情太多了。考虑到所有这些因素,许多事情似乎都是可能的,所以你保留选择似乎是合理的。

Mark Zuckerberg:是的。

为什么要相信元宇宙?

Dwarkesh Patel:让我们谈谈元宇宙。你最想进入人类历史的哪个时期?

Mark Zuckerberg:我对美国历史和古典历史非常感兴趣。我对科学史也很感兴趣。事实上,我认为看到并尝试更多地了解一些重大进步是如何产生的将是非常有趣的。我们对其中一些内容的掌握非常有限。我不确定元宇宙是否能让你这样做,因为我们很难追溯我们没有记录的东西。事实上,我不确定回到过去是否重要。我觉得这对历史课之类的东西很酷,但这可能不是我对元宇宙最感兴趣的例子。

我认为最重要的是,无论你在哪里,(元宇宙)都能让你感觉到和别人在一起。我认为这将是一个杀手锏。在我们的人工智能对话中,有很多关于物理约束的内容,而物理约束是这一切的基础。我认为技术的一个教训是,你应该尽可能地将物理约束领域的东西转移到软件中,因为软件更容易构建和迭代。你可以让它更受欢迎,因为不是每个人都有数据中心,但很多人可以编写代码,使用和修改开源代码。元宇宙版本的软件是数字存在的实现。这将是一个绝对巨大的差异,这样人们就不会觉得有那么多事情必须聚集在一个物理空间里去做。我认为有些事情现在最好聚在一起做。这些事情不是二元对立的。它看起来不像「嗯,现在你不需要再这样做了。」。但总的来说,我认为它在社交、与人沟通、工作、一些行业、医疗和许多方面都非常强大。

Dwarkesh Patel:对于元宇宙,你知道你必须这样做,即使市场指责你。我很好奇,这种确定性的来源是什么?你说「哦,价值观,我有这种直觉」,但每个人都这么说。如果你说一些你独特的话,你会怎么表达?你为什么这么相信元宇宙?

Mark Zuckerberg:我认为这是几个不同的问题。我的动机是什么?我们讨论了很多主题。我只是很喜欢建造东西。我特别喜欢关注人们如何交流、表达自己和如何工作来构建事物。当我上大学的时候,我学习计算机科学和心理学。对我来说,这一直是这两件事的交叉点。

这也是一种非常深刻的内在驱动力。我不知道该怎么解释,但是我只是觉得,如果我不建造一些新的东西,我会做错什么?。即使我们为人工智能投资1000亿美元或为元宇宙投资巨额资金做准备,我们也制定了计划。我认为这些计划清楚地表明,如果我们的东西有效,这将是一项很好的投资。但是你不能从一开始就确定。人们会和顾问或不同的人争论。比如「你怎么能有足够的信心去做呢?」当我不再试图创造新事物时,我就结束了。我要去别的地方创造新的东西。从根本上说,当我经营某件事或生活时,我不能试图创造我认为有趣的新事物。对我来说,这甚至不是问题,我就是别无选择。

我生活的方方面面都是这样。我们家在考爱岛建了一个牧场,我负责设计所有的建筑。我们开始养牛,我只是想「嗯,我想把世界养大。最好的牛。」「那我们该怎么设计呢?」这就是我。

开源花费100亿美元开发的模型,如何赚钱?

Dwarkesh Patel :让我们回到投资者和开源的话题上。假设100亿美元的模型是完全安全的。你已经做了这些评估。不同的是,评估师也可以微调模型,希望未来的模型也是如此。你会开源100亿美元的模型吗?

Mark Zuckerberg:只要它对我们有帮助,它就会开源。

Dwarkesh Patel :研发费用100亿美元,真的会开源吗?

Mark Zuckerberg:随着时间的推移,我们也会评估这个问题。我们在开源软件方面有着悠久的历史。我们不喜欢开源我们的产品。我们不会 Instagram 开源代码。我们将开源许多底层基础设施。在我们的历史上,最大一个项目可能是我们的开放计算项目(Open Compute Project),我们将所有服务器、网络交换机和数据中心的设计都是开源的,对我们很有帮助。虽然很多人可以设计服务器,但现在整个行业都以我们的设计为标准,这意味着供应链基本上是围绕我们的设计建立起来的。因此,在成交量开始后,价格对每个人来说都变得更便宜,并为我们节省了数十亿美元,这真的很棒。

因此,开源可以在很多方面帮助我们。一是人们能否找到更便宜的运营模式。随着时间的推移,我们将在这些事情上花费数千亿美元或更多。所以如果我们能提高10% 我们可以节省数十亿甚至数百亿美元。它本身可能值很多钱。特别是如果有其他竞争模式,我们的事情并没有放弃一些疯狂的优势。

Dwarkesh Patel:那你认为训练会商业化吗?

Mark Zuckerberg:我认为有很多方法可以解决这个问题,这就是其中之一。因此,「商品」这意味着它会变得非常便宜,因为有很多选择。另一个可能的方向是质量改进。你提到了微调。目前,微调技术在其他主要模型中的应用非常有限。有一些选择,但通常不合适最大的那些模型。我们所能做的就是微调不同的应用程序或特定的使用案例,或者在特定的工具链中构建它们。我认为这不仅可以提高开发效率,还可以带来定性差异。

这里有一个类似的例子。我认为移动生态系统最糟糕的是,苹果和谷歌这两个守门人(gatekeeper)告诉你你可以开发什么。从经济的角度来看,我们建造了一些东西,他们拿走了你的很多钱。但是还有一个定性的东西,其实让我更不开心。当我们推出或想要推出新功能时,苹果会说很多次「不,你不能推出这个功能」。这很糟糕,对吧??所以问题来了,我们也想要这样的吗? AI 世界?世界上只有几家公司经营这些封闭模型,它们将控制它们 API,然后告诉你你能建造什么。

对我们来说,我可以说,为了确保我们不会陷入这种境地,我们自己建立一个模型是值得的。我不希望任何其他公司告诉我们我们能建造什么。从开源的角度来看,我认为许多开发人员不希望这些公司这样做。那么问题来了。围绕这个问题建立的生态系统是什么样的?有什么有趣的新事物?这样可以在多大程度上改善我们的产品?在我看来,在很多情况下,如果我们最终像我们的数据库、缓存系统或架构一样,我们将从社区中做出有价值的贡献,使我们的产品更好。到那时,我们所做的具体的应用工作仍然会非常不同,所以这并不重要。我们将能够做我们应该做的事。我们将从中受益。而且所有的系统,无论是我们的还是社区的,都会因为开源而变得更好。

有一个世界可能不是这样的。也许这个模型最终更像是产品本身。我认为这是一个更困难的经济计算,无论你是否打开源代码。你把自己的商品化了很多。但就我所看到的,我们似乎还没有到那个地步。

Dwarkesh Patel:你想通过授权你的模型给云提供商来赚取可观的收入吗?这样,他们就必须向你支付费用才能部署这个模型。

Mark Zuckerberg:我们希望有这样的安排,但我不知道它有多重要。这基本上是我们的 Llama 许可证的范围。在许多方面,它是一个非常开放的开源许可证,但我们对使用它的大公司有限制。这就是为什么我们设置限制。我们不想阻止他们使用它。我们只是希望,如果他们打算转售我们建造的东西并从中赚钱,他们应该和我们谈谈。假如你是微软 Azure 或者亚马逊,如果你打算转售我们的模型,我们应该有一些收入份额。所以,在此之前,请先和我们谈谈。

因此,对于 Llama-我们基本上与所有这些主要的云计算公司达成了协议,Llama-2可用作所有这些云的托管服务。在我看来,随着我们发布的模型越来越大,这将是一件大事。这不是我们的重点,但我认为,如果这些公司想销售我们的模型,我们应该以某种方式分享好处。

Dwarkesh Patel:就开源而言,我很好奇你是否认为 PyTorch、React、Open Compute 等开源对世界的影响甚至超过了 Meta 社交媒体。我和使用这些服务的人谈过。他们认为这是合理的,因为互联网的很大一部分是基于这些东西。

Mark Zuckerberg:这是个有趣的问题。世界上几乎一半的人都在使用我们的消费品,所以很难超越。但我认为,开源作为一种新的建设方式,确实非常强大。我的意思是,超越是可能的。就像贝尔实验室一样,他们研究晶体管是为了实现长途电话。他们做到了,最终获得了丰厚的利润,因为他们可以实现长途电话。5到10年后,如果你问他们发明的最有用的东西是什么? 他们会说「我们已经实现了长途电话,现在所有人都在打长途电话」。但如果你问一个一百年后的人,答案可能会有所不同。

我认为我们正在建造的很多东西都是这样的,包括实验室(Reality Labs)、一些人工智能的东西,一些开源的东西。特定的产品将继续发展,但人类的进步将继续下去,这对我们来说是一件很酷的事情。

Dwarkesh Patel:Llama 模型什么时候会在自己的定制芯片上训练?

Mark Zuckerberg:很快,但 Llama-4不会。我们采用的方法是构建定制芯片,处理排名和推荐类型的推理,如 Reels、News Feed 广告等。这需要大量的消耗 GPU。当我们能够将其转移到自己的芯片上时,我们只能在训练中使用更昂贵的英伟达 GPU。我们希望在未来的某一天,我们可以用自己的芯片训练一些简单的东西,然后训练真正的大模型。这个项目进展顺利,我们只是有条不紊地进行着,我们有一个长期的路线图。

假如你被任命为 Google + 的 CEO,你能成功吗?

Dwarkesh Patel:假如你被任命为 Google + 的 CEO,你能成功吗?

Mark Zuckerberg:不知道。这是一个非常困难的反事实问题。

Dwarkesh Patel:当 Gemini 办公室里有没有人说:「Carthago delenda est(迦太基必须毁灭)」(注:隐喻性地表达对竞争对手的强烈敌意或战胜对手的决心)

Mark Zuckerberg:不,我觉得我们现在更平和了。问题是,Google+ 并没有 CEO。它只是公司内部的一个部门。你以前问过什么是最稀缺的商品,但你问的是以美元计价。事实上,我认为对于大多数公司来说,至少对于这种规模的公司来说,最稀缺的是注意力。当你是一家初创公司时,也许你的资金会更紧张。你只有一个想法,可能没有所有的资源。在某一点上,你越过了你所做的事情的界限。你正在建造多个东西。你在它们之间创造了更多的价值,但你受到了更多的限制。

总会有这样的情况,那就是组织里发生了一些惊人的事情,但我不知道。这些都很棒。但我认为,总的来说,组织的能力主要受到限制 CEO 以及管理团队的监督和管理能力。正如我们关注的那样,这一直是我们关注的焦点。 Ben Horowitz(硅谷着名风投公司 Andreessen Horowitz 联合创始人之一)所说,「keep the main thing, the main thing」,并努力专注于你的关键优先事项。

参考链接:https://www.dwarkeshpatel.com/p/mark-zuckerberg


/template/Home/Zkeys2/PC/Static